데이터 개념공부
자격증 공부하면서 헷갈렸던 개념 공부
프라이버시 보호 모델
k-익명성
주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재
연결 공격 취약점 방어
l-다양성
주어진 데이터 집합에서 비식별 되는 레코드들은 적어도 l개의 서로 다른 민감한 정보를 가짐
k-익명성에 두가지 취약점인 동질성 공격, 배경 지식에 의한 공격 방어
t-근접성
정보의 분포가 t이하의 차이를 보여야 함
l-다양성의 쏠림 공격, 유사성 공격 보완
m-유일성
- 원본 데이터와 동일한 속성 값의 조합이 비식별 결과 데이터에 최소 m개 이상 존재하여 재식별 가능성 낮춤
대상별 분석 기획 유형
분석의 대상 | (What) | ||
---|---|---|---|
Known | Un-Known | ||
분석의 방법 | Known | Optimization(최적화) | Insight(통찰) |
(How) | Un-Known | Solution(솔루션) | Discovery(발견) |
분석과제 우선순위 평가
시급성: 전략정 중요도/목표가치(KPI) \(\to\) 비즈니스효과Value
난이도: 데이터 획득,저장,가공비용/분석저용비용/분석수준 \(\to\) 투자비용 요소 Volume, Variety, Velocity
어려움 | 1 | 2 | |
난이도 | 3 | 4 | |
쉬움 | 현재 | 시급성 | 미래 |
난이도 기준 우선순위: 3 \(\to\) 1 \(\to\) 2
시급성 기준 우선순위: 3 \(\to\) 4 \(\to\) 2
개인정보 익명 처리
가명
일반화
섭동: 원래 데이터를 동일한 확률적 정보를 가지는 변형된 값으로 대체
치환: 특정 컬럼의 데이터를 무작위로 순서 변경
데이터 저장 기술
데이터웨어하우스(DW) : 다양한 데이터 소스로부터 데이터 수집하여 ETL과정을 거쳐 DW에 저장
데이터 마트(DM) : DW로부터 특정 주제별 또는 특정 부서별로 DM생성, 마케팅, 금융 등의 의사결정 지원
데이터 레이크(DL) : 웹/로그 데이터, 기타 데이터는 DL에 저장되며 저장된 데이터는 사이언스에 활용
지도 학습(Supervised Learning)
- 정답(label)이 있는 데이터로 학습을 시킴
분류 모델
회귀모델
SVM
- Margin : 서포트 벡터를 지나는 초평면 사이 거리
비지도 학습 (Unsupervised Learning)
- 정답이 없는 데이터를 컴퓨터가 스스로 학습하여 숨겨진 의미와 패턴을 찾아내고 구조화함
군집 분석
ex) 미국 주별 강력 범죄율 군집분석: 가까운 거리에 있는 유사 특징을 가진 도시들을 묶어서 보여줌
- 군집내 유사성, 군집간 상이성
연관성분석
- 유사 개체들을 그룹화하여 각 집단의 특성을 파악하고 사건의 연관규칙을 찾는다.
-
지지도
-
신뢰도
-
향상도
인공신경망
오토인코더
- 다차원데이터를 저차원, 고차원 데이터로 바꾸면서 특징을 찾는다.
- 다차원 데이터를 입력하면 encoder 통해 차원을 줄이는 은닉충으로 이동하고 decoder 통해 차원을 늘리는 출력층으로 내보낸 뒤 출력값을 입력값과 비슷하게 만드는 가중치를 찾는다.
- 데이터를 압축하고 배경의 잡음을 억제
준지도 학습 (Semi-supervised Learning)
- 정답이 있고 없는 데이터를 동시에 학습 시킴
GAN
- 학습 데이터 패턴과 유사한 것을 만드는 생성자(generator) 네트워크와 패턴 진위 여부를 판별하는 판별자(discriminator) 네트워크로 구성
- 기계학습에서 교수님이 설명해주신 내용중에.. 그 경찰이랑 범죄자 관련 내용 참고하자
강화 학습 (Reinforcement Learning)
주어진 환경에서 보상을 최대화하여 에이전트를 학습시킴
종류: Q-learning, 정책경사(PG:Policy Gradinet)
독립변수와 종속변수의 데이터 유형에 따른 분석 기법
독립변수(X:연속형)-종속변수(Y:연속형)
회귀 분석
인공신경망 모델
k-최근접 이웃기법
의사결정나무(회귀 나무)
독립변수(X:연속형)-종속변수(Y:이산형/범주형)
로지스틱 회귀 분석
판별 분석
K-최근접 이웃기법
의사결정나무(분류나무)
독립변수(X:이산형/범주형)-종속변수(Y:연속형)
회귀 분석
인공신경망 모델
의사결정나무(회귀 나무)
독립변수(X:이산형/범주형)-종속변수(Y:이산형/범주형)
인공신경망 모델
의사결정나무(분류 나무)
로지스틱 회귀 분석
데이터 결측값
-
종류
1
완전무작위결측(MCAR)
- 변수상 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우
2
무작위 결측(MAR)
누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계 없음
누락이 전체 정보가 있는 변수로 설명이 될 수 있음
3
비 무작위 결측(MNAR)
- 누락된 값이 다른 변수와 연관이 있음
변수 선택
필터 기법
래퍼 기법
예측 정확도 측면에서 가장 좋은 성능을 보이는 하위집합 선택
그리디 알고리즘(문제를 해결하는 과정에서 그 순간 최적이라고 생각하는 결정)
전진 선택법, 후진 소거법, 단계적 방법
변수의 일부를 모델링에 사용하고 그 결과를 확인하는 작업 반복
임베디드 기법
모델의 정확도에 기여 하는 변수 학습
좀 더 적은 계수를 가지는 회귀식 찾기
-
사례
라쏘(LASSO): 가중치의 절댓값의 합을 최소화, L1-norm을 통해 제약을 줌
릿지(Ridge): 가중치들의 제곱합을 최소화, L2-norm
엘라스틱넷: 라쏘 + 릿지
차원축소기법
-
주성분 분석(PCA)
변수들이 공분산 행렬이나 상관행렬 이용
고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환
정방행렬에서 이용
-
. 특이값 분해(SVD)
- \(MXN\)차원 행렬데이터에서 특이값 추출
시계열 모형
자기회귀모형(AR)
- 현 시점의 자료가 p시점 전의 유한개의 과거 자료로 설명될 수 있는 모형
이동평균모형(MA)
시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형
유한개의 백색잡음의 선형결합으로 정상성 만족
자기 회귀 누적 이동평균 모형(ARIMA)
분기/반기/연간 단위로 다음 지표를 예측하거나 주간/월간 단위로 지표 리뷰
비정상 시계열 모형. 차분이나 변환으로 AR,MA,ARMA모형으로 정상화
ARIMA(p,d,q)
p
: AR과 관련,q
: MA와 관련,d
:ARIMA에서 ARMA로 정상화 할때 차분 횟수ARIMA(0,0,0): 백색잡음 모형
ARIMA(p,0,0): AR모형
ARIMA(0,0,q): MA모형
혼동 행렬
Predicted Positive | Prdicted Negative | ||
Actual Positive | TP | FN | |
Prdicted Negative | FP | TN |
정확도(Accuracy) = 정분류율 : \(\dfrac{TP+TN}{TP+TN+FP+FN}\)
참 긍정률(TP Rate) = 재현율(Recall) = 민감도(Sensitivity) : \(\dfrac{TP}{TP+FN}\) 실제로 긍정인 범주 중 긍정
특이도(Specificity) : \(\dfrac{TN}{TN+FP}\) 실제로 부정인 범주 중 부정
거짓 긍정률(FP Rate) : \(\dfrac{FP}{TN+FP}\) 실제로 부정인 범주 중 긍정, = 1-특이도
정밀도(Precision) : \(\dfrac{TP}{TP+FP}\) 긍정 예측 중 긍정
F1-Score : \(2 \dfrac{정밀도 X 재현율}{정밀도+재현율}\) : 0~1사이 범위
ROC곡선의 x축: 거짓 긍정률, y축: 참 긍정률
불균형 데이터에서는 정확도가 높지만 분포가 작은 데이터에 대하여 정밀도와 재현율이 낮아지는 문제가 발생할 수 있다.
단답
EDA: 데이터를 이해하고 의미 있는 관계를 파악하기 위해 데이터의 통계값과 분포 등을 시각화하고 분석하는 것
로보 어드바이저(Robo Advisor): 인간의 간섭을 가능한 최소화하여 금융 서비스나 투자 관리를 온라인으로 제공하는 투자 자문역할의 일종. 수리적 규칙이나 알고리즘에 기반한 디지털 금융 서비스 제공
EM알고리즘: GMM(Gaussian Mixture Model) 군집분석이 모수를 학습하는 방법
러스터(Luster): 고성능 컴퓨팅을 위한 대용량 파일 분산 파일 시스템으로, 고속 네트워크로 연결된 클라이언트 파일 시스템, 메타데이터 서버, 객체 저장 서버들로 구성된 시스템. 리눅스와 클러스터의 합성어
K평균군집화: 임의의 개수로 소집단을 나누고 소집단의 중심으로부터 각 개체까지의 거리를 산출하고 나서, 각 개체를 가장 근접한 소집단에 배정한 이후, 해당 소집단의 중심좌표를 업데이트하는 군집화 방식
RDBMS: 관계형 데이터베이스를 SQL을 사용해 CRUD(Create, Read, Update, Delete)를 수행하고 관리할 수 있는 소프트웨어
데이터 거버넌스: 전사 차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영 조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것
스피어만상관계수: 비선형적인 관계도 파악하는 상관계수
데이터 스케일링: 데이터 전처리 과정 중에 분석 결과가 왜곡되지 않도록 변수들의 범위를 동일하게 만들어주는 처리 기법
클라우드 컴퓨팅: 빅데이터 분석에 경제성을 제공해준 기술 / 인터넷상의 서버에서 데이터 저장, 처리, 네 트워크, 콘텐츠 사용 등 서로 다른 물리적인 위치에 존재하는 컴퓨팅 자원을 가상화 기술을 통해 IT 관련 서비스를 한번에 제공하는 혁신적인 컴퓨팅 기술
T접근성: 동질 집합에서 민감정보의 분포와 전체 데이터 집합에서의 민감정보 분포가 유사한 차이를 보이게 만드는 기법
변동계수(CV): 표준편차를 평균으로 나눈 값, 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용
다차원 척도법: 동일한 상대적 거리를 가진 실수 공간의 점들로 대상들을 배 치시키는 방법은, 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법
SCM(Supply Cahin Management): 기업이 시간과 비용을 최적화 시키기 위해 외부 공급업체와 연계하여 통합한 정보시스템
TCO : 하나의 자산을 획득하려 할 때, 주어진 기간 동안 모든 연관 비용을 고려할 수 있도록 확인하기 위해 사용하는 평가 기법이며, 일반적으로 3년 소유비용, 5년 소유비용 등으로 계산하는 해당 지표
마할라노비스 거리: 이상값 검출 방법, 데이터 분포를 고려한 거리 측도
코사인 유사도: 두 벡터 사이의 각도를 이용하여 벡터간의 유사 정도를 측정
KPI(Key Performance Indicator): 기업의 목표를 달성하기 위핸 핵심 성과 지표